智能论文笔记

On the Universality of Deep Contextual Language Models

Shaily Bhatt , Poonam Goyal , Sandipan Dandapat , Monojit Choudhury , Sunayana Sitaram

分类：自然语言处理

2021-09-15

深层语言语言模型（LMS）如Elmo，BERT及其继任者通过预先训练单个模型来迅速缩放自然语言处理的景观，然后是任务特定的微调。此外，像XLM-R和MBERT这样的这种模型的多语言版本使得有希望的零射击交叉传输导致，可能在许多不足和资源不足的语言中实现NLP应用。由于此初步成功，预先接受的模型被用作“通用语言模型”作为不同任务，域和语言的起点。这项工作通过识别通用模型应该能够扩展的七个维度来探讨“普遍性”的概念，即同样良好或相当良好地执行，在不同的环境中有用。我们概述了当前支持这些维度的模型性能的当前理论和经验结果，以及可能有助于解决其当前限制的扩展。通过这项调查，我们为理解大规模上下文语言模型的能力和限制奠定了基础，并帮助辨别研究差距和未来工作的方向，使这些LMS包含多样化和公平的应用，用户和语言现象。

translated by 谷歌翻译